查看原文
其他

微软研究院NEJM特别报告:GPT-4临床应用、局限和风险

NEJM医学前沿 NEJM医学前沿 2023-04-03

新技术、新产品的发展可能经历4个可以相互重叠的阶段:默默无闻,家喻户晓/众矢之的,飞入寻常百姓家。上个世界70年代末发展起来的DNA重组技术和本世纪初的智能手机是两个突出代表,而最近的AI大语言模型GPT也是如此,只是进程大大提速。


就在昨天,曾投资DeepMind和OpenAI的马斯克及其他业界意见领袖联名发表公开信,呼吁暂停训练比GPT-4更强大的AI系统,利用6个月暂停期达成共识,制定监管政策。


医疗是GPT-4可能发挥颠覆性作用的领域之一,稳定和安全的重要性不言而喻。微软旗下语音识别公司Nuance Communications上周推出基于GPT-4的AI临床笔记软件,有望提高医生临床诊治效率,其表现究竟如何?


《新英格兰医学杂志》(NEJM)今日发表题为《GPT-4作为医学AI聊天机器人的优势、局限和风险》的特别报告(Special Article),举例介绍了AI聊天机器人的临床能力:撰写病例和病例咨询。该文还展示了GPT-4强大的自我修正能力。当测试人员让GPT-4核对其生成信息正确性时,它能发现自己的错误并修改。


微软研究院负责人、微软副总裁Peter Lee等作者承认目前AI聊天机器人应用于临床表现并不完美,存在局限性甚至风险。但他们强调:“GPT-4本身并不是终点,而是通往新前景和新风险的大门......就像所有工具一样,它们可以用来做好事,但也有可能造成伤害。


AI聊天机器人技术

聊天机器人由两个主要部分组成:通用AI系统和聊天界面。本文专门讨论名为GPT-4(生成式预训练转换架构4,Generative Pretrained Transformer 4)的带聊天界面AI系统。人工智能公司OpenAI正在对其不断完善,但该系统已正式推出。

使用聊天机器人,首先要用简单的自然语言输入一项查询(通常称为“提示” [prompt]),从而开始一个“会话”。用户一般是人类,但也不一定。之后聊天机器人会使用自然语言,一般在1秒内给出与提示相关的“回应”。提示和回应之间的交流贯穿整个会话,总体效果很像两个人在对话。图1A是与GPT-4聊天机器人之间一次典型会话的文字记录,可以看出,系统具备追踪对话上下文的能力,这使其更有用、更自然。

图1. 与GPT-4的对话示例
图A是与AI聊天机器人GPT-4的会话示例。文本显示GPT-4如何根据互联网信息回答问题,并提供通常有依据的建议。如图B所示,当给出的提示并无单一已知“正确”回应时,GPT-4显然会遇到挑战。在上图中我们看到,它有时是在分析用户可能的情感需求之后做出回应。但在第二种情况下,当不知道正确答案时,它并没有承认,而是编造了一个答案,这称为“幻觉”。图C中是一个新的互动,GPT-4被要求阅读并验证图A和B中的对话,在这一过程中,GPT-4检测出图B中的输出信息有幻觉。

目前的聊天机器人对提示的形式和措辞较为敏感。该特性引出了“提示工程”(prompt engineering)的概念,这既是一门艺术,也是一门科学。尽管未来的AI系统可能会对提示中使用的精确语言不那么敏感,但就目前而言,提示需经过仔细设计和测试,从而产生最佳结果。究其本质,如果一个提示是有确切答案的问题或要求,那么根据互联网上有依据的信息来源或通过简单的逻辑或数学计算,GPT-4产生的回应基本上都是正确的。

然而,与GPT-4之间的一些最有趣互动发生于用户输入并无唯一正确答案的提示时。图1B给出了两个这样的例子。在图B的第一个提示中,用户首先说明了自己的担心或烦恼。GPT-4在回应中试图满足其所推测的用户需求。在第二个提示中,用户问了一个系统无法回答的问题,可以将其解读为用户假设GPT-4是人类。GPT-4的错误回应有时被称为“幻觉”(hallucination),这种错误在医疗场景中尤其危险,因为错误或虚假信息可能很细微,而聊天机器人又常用令人信服的方式说出回应,这可能导致进行查询的人相信其真实性。因此,一定要检查或核实GPT-4的输出信息。

幸运的是,GPT-4本身非常善于捕捉这类错误,而且不仅可捕捉自己工作中的错误,还可捕捉人类工作中的错误。图1C给出了一个示例,在与GPT-4的新会话中向其提供正在进行的对话完整文本,并要求其找出错误。尽管幻觉是由GPT-4本身产生,但GPT-4在另一次会话中发现了这一错误。

AI聊天机器人和医学应用

GPT-4不是为特定的“指定任务”(例如解读图像或分析医疗记录)而设计,而是被开发成具备通用认知技能,目标是帮助用户完成各种不同任务。提示可以是问题的形式,也可以是要求执行特定任务的指令,例如“请阅读并总结这篇医学研究论文”。此外,提示中句子的语言并不限于英语;可以用多种不同的人类语言书写,并且可以包含电子表格、技术规格、研究论文和数学方程等数据输入。


在微软支持下,OpenAI一直在开发一系列越来越强大的AI系统,其中GPT-4是截至2023年3月所公开发布的最先进系统。在过去6个月里,微软研究院和OpenAI一直在研究GPT-4在医疗领域和医学应用程序中的可能用途,以便更深入了解其基本功能、局限性和对人类健康的风险。这些领域包括在医学和医疗文书工作、数据互操作性、诊断、研究和教育方面的应用。


另外几个著名的AI聊天机器人也开展了医学应用方面的研究。最引人关注的两个是LaMDA(谷歌)和GPT-4前身GPT-3.5。有趣的是,LaMDA、GPT-3.5和GPT-4均未专门针对医疗或医学领域应用进行训练,因为训练方案的目标是实现通用认知能力。因此,这些系统完全采用互联网上的公开数据进行训练,例如公开的医学文字内容、研究论文、医疗系统网站以及公开的医学信息播客和视频。训练数据中不包含任何专用内部数据,例如医疗组织电子病历系统中的数据,或者仅存在于医学院或其他类似机构局域网上的医学信息。但这些系统在医学应用中仍表现出不同程度的能力。


因为医学是通过范例来教授,所以本文提供了三个基于场景的GPT-4潜在医学用途示例。第一个示例的任务是撰写医疗记录,第二个示例展示了GPT-4在解答美国医师执照考试(U.S. Medical Licensing Examination,USMLE)典型问题上的表现,第三个示例给出了医师向同事寻求建议时可能提出的“非正式医疗咨询”问题。这些示例都是在2022年12月使用GPT-4的预发布版本运行。2023年3月向公众发布的GPT-4版本在回应上述提示时有所改进,尤其是它不再表现出如图1B和2A所示的幻觉。我们注意到GPT-4很可能处于一种几乎不停顿的变化状态,其行为可能随时间推移而改进或退化


撰写医疗记录

第一个示例(图2A)显示了GPT-4根据诊疗中的医患对话文本撰写医疗记录的能力。我们对Nuance Dragon Ambient eXperience(DAX)记录的医患对话文本进行了实验,但为了尊重患者隐私,本文使用的是医学信息自动转录数据集(Dataset for Automated Medical Transcription)中的文本。在这一应用示例中,GPT-4收到医患对话文本,然后为患者病历生成一份“医疗记录”。

图2. 使用GPT-4协助撰写医疗记录

图A中是提示(医患对话文本)和GPT-4据此撰写的医疗记录。在图B中,GPT-4检查了医疗记录是否正确。该示例中的医疗记录是由GPT-4生成,但GPT-4也可对人类或其他AI系统撰写的医疗记录进行检查确认。GPT-4发现了几处错误,并更正了医疗记录。


在拟定的部署方案中,患者签署知情同意书之后,GPT-4可听取诊疗过程中的医患对话(与目前的“智能音箱”相似),并通过这一方式获得文本。诊疗完成后,软件应医师要求生成医疗记录。GPT-4可生成数种常用格式的医疗记录,例如SOAP(主观资料、客观资料、评估和计划),还可自动包含计费代码。除医疗记录外,GPT-4还可应提示回答关于此次诊疗的问题,提取预先核准信息,生成符合Health Level Seven快速医疗互操作性资源(Fast Healthcare Interoperability Resources)标准的实验室检查单和处方,撰写就诊总结以及向临床医师和患者提供重要反馈。

虽然上述应用显然有用,但并非事事完美。GPT-4是一个智能系统,就像人类推理一样,它也是会出错的。例如,图2A中GPT-4生成的医疗记录写着患者体质指数(BMI)为14.8。而文本中并无如何计算出这一BMI的信息,这又是一个关于幻觉的示例。如图1C所示,一种解决方案是让GPT-4发现自己的错误。

在另外一个会话中(图2B),我们要求GPT-4阅读文本和医疗记录。GPT-4发现了BMI幻觉。在“重读”后输出的信息中,它还指出医师并未提及营养不良或心脏并发症的体征,虽然临床医师观察到了这些体征,但在与患者的对话中并没有关于这些问题的内容。这些信息对建立诊断基础很重要,重读文本后解决了这一问题。最后,AI系统提出需要更详细说明安排的血液检查,以及安排这些检查的依据。在未来部署的GPT-4应用中,应将处理幻觉、遗漏和错误的这一机制和其他机制包含在其中。

固有医学知识

尽管GPT-4只经过互联网上公开信息的训练,但当其收到USMLE一组考题后,答案正确率达到90%以上。图3给出了USMLE的一个典型考题以及GPT-4的回应,其中GPT-4解释了推理、参考了已知医学事实、指出了因果关系、排除了其他答案,并为其“观点”提供了令人信服的依据。

图3. GPT-4回答USMLE考题示例

该提示是美国USMLE中的一个考题范例。GPT-4答对了USMLE中的几乎所有书面考题,而且能够给出答案背后的推理过程。


问诊

GPT-4内的医学知识可用于医疗咨询、诊断和教育中的各种任务。向GPT-4提出典型的“非正式医疗咨询”问题、提供患者初始临床表现或实验室检查结果后,GPT-4通常可做出有用回应,有可能帮助提出查询的医务人员解决关注的问题。图4给出了就某一常见疾病与GPT-4进行的互动示例。由于系统的交互性质,用户可提出后续问题,要求GPT-4就之前的回应做出更详细说明,也可要求其给出更简洁的回应,“直奔主题”。


图4. 与GPT-4之间的“非正式医疗咨询”示例


这些医学知识使得GPT-4不仅可用于临床,还可用于科研。GPT-4可阅读医学研究资料,并参与相关讨论,如简要总结内容、提供技术分析、确定相关前期工作、评估结论,以及提出可能的后续研究问题。


结语

我们一直在探索新兴的AI聊天机器人技术,尤其是GPT-4,目的是评估其在医疗服务和医学研究领域的前景和风险。GPT-4仍在开发中,本文只触及了其功能的皮毛。例如,它可以编写用于处理数据并使其可视化的计算机程序、翻译外语、为不熟悉专业语言的读者解释保险福利说明和实验室检查结果,以及给患者书写为其提供情感支持的便条,但最后一项用途可能存在争议。

我们也使用了公开发布的GPT-4版本重新运行前述的三个示例,旨在说明截至2023年3月的演变(可在nejm.org获取)。我们预计,仍在开发中的GPT-4将继续演进,其整体性能有可能改进也有可能退化。但这只是起点,仅仅代表了我们过去几个月所做实验的一小部分。相信接下来将会有一场关于这一新型AI所发挥功能的公共讨论,我们希望能对这场讨论,同时希望能了解医疗和医学如何才能随着AI的快速演进而实现最佳发展。

我们发现,虽然GPT-4非常强大,但也有重要局限性。因此,关于什么才是通用AI的合格性能,我们认为这一问题仍有待解答。例如,如图2所示,系统可能犯错误,但也可以发现错误,而且既可以发现AI的错误,也可以发现人类的错误。既往应用的AI是基于狭窄范围内的模型,并针对特定临床任务进行过调整,此类应用受益于精确定义的操作范围。但我们应如何评估像GPT-4这类工具的通用智力?用户可以在多大程度上“信任”GPT-4,读者是否需要花时间确认其所写内容的真实性?除校对外,还需要做多少事实核查工作,GPT-4可以在多大程度上协助完成这项任务?

上述问题和其他一些问题无疑将成为医学界和非医学界争论的话题。我们承认,作为设计出GPT-4的公司的雇员,我们是有偏向性的,但我们预测,医疗专业人员和患者将越来越频繁地使用聊天机器人。也许最重要的一点是,GPT-4本身并不是终点,而是通往新前景和新风险的大门。我们推测,GPT-4之后很快将出现更强大、能力更高的AI系统,即一系列越来越强大、越来越智能的机器。这些机器是工具,就像所有工具一样,它们可以用来做好事,但也有可能造成伤害。如果小心谨慎使用,这些不断发展的工具有可能帮助医护人员提供可能的最佳医疗。

参考文献
Lee P, Bubeck S, and Petro J. Benefits, limits, and risks of GPT-4 as an AI chatbot for medicine. N Engl J Med 2023;388:1233-9.







版权信息

本文由《NEJM医学前沿》编辑部负责翻译、编写或约稿。对于源自NEJM集团旗下英文产品的翻译和编写文章,内容请以英文原版为准。中译全文以及所含图表等,由马萨诸塞州医学会NEJM集团独家授权。如需转载,请联系nejmqianyan@nejmqianyan.cn。未经授权的翻译是侵权行为,版权方保留追究法律责任的权利。


点击下方名片,关注《NEJM医学前沿》




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存